1
Определение взаимосвязей через условные распределения
MATH003Lesson 10
00:00
Добро пожаловать в смену парадигмы в статистике. Мы переходим от простого интуитивного понимания «линий тренда» к строгому рамке распределений. Здесь мы определяем связь не только по коэффициенту корреляции, но как любое изменение вероятностного поведения зависимой переменной $Y$ при изменении предиктора $X$.

Определение 10.1.1: Статистическая связь

Две переменные $X$ и $Y$ считаются связанными если существует любое изменение условного распределения $Y$, при $X = x$, при изменении $x$. Напротив, состояние «отсутствия связи» математически эквивалентно независимости $X$ и $Y$.

Логическая эквивалентность

Переменные $X$ и $Y$ не связаны тогда и только тогда, когда $f(y|x) = f(y)$ для всех значений $x$. Это означает, что совместная функция относительной частоты может быть разложена как:

$$f(x, y) = f(x)f(y)$$

Следовательно, проверка на наличие связи — это в первую очередь проверка на независимость.

Механизмы изменения

Связь определяется любым смещением условной плотности (как показано на рисунке 10.1.1). К ним относятся:

  • Сдвиг среднего: Ожидаемое значение $E(Y|X)$ меняется (наиболее распространённый фокус).
  • Сдвиг дисперсии: Разброс или неопределённость $Y$ зависит от $X$ (гетероскедастичность).
  • Изменение формы: Общее распределение трансформируется (например, от симметричного к асимметричному).

Установление причинно-следственной связи через дизайн

Статистическая связь не означает причинно-следственную связь. Чтобы утверждать, что $X$ вызывает $Y$, необходимо учитывать факторы смешивания через дизайн эксперимента:

  • Контрольные обработки: Предоставляет базовую точку сравнения.
  • Эффект плацебо: Снижение воспринимаемого улучшения за счёт неактивных обработок.
  • Замаскированность: Использование слепых экспериментов (получатели не знают) и двухслепых экспериментов (получатели и исследователи не знают), чтобы устранить предвзятость.
  • Блокирование: Как показано в Примере 10.1.7, мы используем блокирующие переменные ($W$, например, плодородие почвы), чтобы гарантировать, что связь между типом пшеницы ($X$) и урожайностью ($Y$) не искажается изначальными условиями.
🎯 Основная математическая оценка
Мы оцениваем эти связи с помощью условной функции правдоподобия функций. Для дискретных данных с частотами $f_{ij}$:
$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$ Стандартная ошибка: $SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$